Modern speech enhancement (SE) networks typically implement noise suppression through time-frequency masking, latent representation masking, or discriminative signal prediction. In contrast, some recent works explore SE via generative speech synthesis, where the system's output is synthesized by a neural vocoder after an inherently lossy feature-denoising step. In this paper, we propose a denoising vocoder (DeVo) approach, where a vocoder accepts noisy representations and learns to directly synthesize clean speech. We leverage rich representations from self-supervised learning (SSL) speech models to discover relevant features. We conduct a candidate search across 15 potential SSL front-ends and subsequently train our vocoder adversarially with the best SSL configuration. Additionally, we demonstrate a causal version capable of running on streaming audio with 10ms latency and minimal performance degradation. Finally, we conduct both objective evaluations and subjective listening studies to show our system improves objective metrics and outperforms an existing state-of-the-art SE model subjectively.
translated by 谷歌翻译
Semantic segmentation usually benefits from global contexts, fine localisation information, multi-scale features, etc. To advance Transformer-based segmenters with these aspects, we present a simple yet powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer has two critical contributions as following. First, it introduces a novel pyramid structured Transformer encoder which harvests global context and fine localisation features simultaneously. These features are concatenated and fed into a convolution layer for final per-pixel prediction. Second, IncepFormer integrates an Inception-like architecture with depth-wise convolutions, and a light-weight feed-forward module in each self-attention layer, efficiently obtaining rich local multi-scale object features. Extensive experiments on five benchmarks show that our IncepFormer is superior to state-of-the-art methods in both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on ADE20K which outperforms the existing best method by 1% while only costs half parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on Cityscapes dataset with 39.6M parameters. Code is available:github.com/shendu0321/IncepFormer.
translated by 谷歌翻译
由于管理部分微分方程的半差异,例如通过有限元方法。这些系统的复杂性提出了直接应用自动控制的计算挑战。虽然模型还原已在控制中看到无处不在的应用,但在这种情况下使用非线性模型还原方法仍然很困难。问题在于在降低的订单模型中保留非线性动力学的结构,以进行高保真控制。在这项工作中,我们利用光谱亚曼佛(SSM)理论的最新进展来使模型在明确的假设下降低,以有效地合成反馈控制器。
translated by 谷歌翻译
由于其固有的非线性和高度的自由度,对连续体软机器人的建模和控制仍然是一项艰巨的任务。这些复杂性阻碍了适合实时控制的高保真模型的构建。尽管已经提出了各种模型和基于学习的方法来应对这些挑战,但它们缺乏普遍性,很少保留动态的结构。在这项工作中,我们提出了一种新的,数据驱动的方法,用于从数据中提取面向控制的模型。我们克服了上面概述的问题,并证明了我们对光谱次级减少(SSMR)的卓越性能 - \'a-vis the Art的状态。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
在硅组织模型中,可以评估磁共振成像的定量模型。这包括对成像生物标志物和组织微结构参数的验证和灵敏度分析。我们提出了一种新的方法来生成心肌微结构的现实数值幻影。我们扩展了以前的研究,该研究考虑了心肌细胞的变异性,心肌细胞(插入式椎间盘)之间的水交换,心肌微结构混乱和四个钣金方向。在该方法的第一阶段,心肌细胞和钣金是通过考虑心肌到骨膜细胞连接的形状变异性和插入式椎间盘而产生的。然后,将薄板汇总和定向在感兴趣的方向上。我们的形态计量学研究表明,数值和真实(文献)心肌细胞数据的体积,长度以及一级和次要轴的分布之间没有显着差异($ p> 0.01 $)。结构相关性分析证实了硅内组织与实际组织的混乱类别相同。此外,心肌细胞的模拟螺旋角(HA)和输入HA(参考值)之间的绝对角度差($ 4.3^\ Circ \ PM 3.1^\ Circ $)与所测量HA之间的绝对角差有很好的一致性使用实验性心脏扩散张量成像(CDTI)和组织学(参考值)(Holmes等,2000)($ 3.7^\ Circ \ PM6.4^\ Circ $)和(Scollan等,1998)($ 4.9) ^\ circ \ pm 14.6^\ circ $)。使用结构张量成像(黄金标准)和实验性CDTI,输入和模拟CDTI的特征向量和模拟CDTI的角度之间的角度距离小于测量角度之间的角度距离。这些结果证实,所提出的方法比以前的研究可以为心肌产生更丰富的数值幻象。
translated by 谷歌翻译
当我们使用算法提出建议时,我们通常认为这些建议是提供有用的信息,例如在向法官或医生提供风险评估时。但是,当决策者获得建议时,他们不仅可以对信息做出反应。决策者可以将建议视为默认行动,使他们偏离偏差,例如,当法官不愿推翻对被告的高风险评估或医生担心偏离建议程序的后果时。在本文中,我们考虑建议不仅通过转移信念,而且通过改变偏好来影响选择的效果和设计。我们激励我们的模型从制度因素(例如避免审核的愿望)以及行为科学中建立的模型中的渴望,这些模型相对于参考点,这些模型预测了相对于参考点的损失厌恶,这是由算法设定的。我们表明,与建议有关的偏好造成了效率低下的效率,而决策者对建议过于响应,这改变了算法的最佳设计,以提供较不保守的建议。作为一种潜在的补救措施,我们讨论了一种算法,该算法从战略上扣留建议,并展示如何提高最终决策的质量。
translated by 谷歌翻译
减少甲烷排放对于缓解全球变暖至关重要。为了将甲烷排放归因于其来源,有必要综合的甲烷源基础设施数据集。深入学习远程感知的图像的最新进展有可能识别甲烷源的位置和特征,但是缺乏公开可用的数据,可以使机器学习研究人员和从业人员能够构建自动映射方法。为了帮助填补这一空白,我们在美国构建了一个称为Meter-ML的多传感器数据集,该数据集包含86,625个地理参考的NAIP,Sentinel-1和Sentinel-2图像,并在美国标记为有甲烷源设施,包括甲烷源设施,包括集中动物喂养操作,,,,,,,包括浓缩动物喂养操作,煤矿,垃圾填埋场,天然气加工厂,炼油厂和石油末端以及废水处理厂。我们尝试各种模型,以利用不同的空间分辨率,空间足迹,图像产品和光谱带。我们发现,我们的最佳模型在确定浓缩动物喂养操作的精确召回曲线下达到了一个面积,在专家标签的测试集上,用于识别浓缩动物饲养操作,用于油炼油厂和石油末端0.821,这表明有可能进行大规模映射。我们在https://stanfordmlgroup.github.io/projects/meter-ml/上免费提供仪表-ML,以支持自动化甲烷源映射的未来工作。
translated by 谷歌翻译
全世界不可持续的捕鱼实践对海洋资源和生态系统构成了重大威胁。识别逃避监测系统的船只(称为“深色船只”)是管理和保护海洋环境健康的关键。随着基于卫星的合成孔径雷达(SAR)成像和现代机器学习(ML)的兴起,现在可以在全天候条件下白天或黑夜自动检测到黑暗的容器。但是,SAR图像需要特定于域的治疗,并且ML社区无法广泛使用。此外,对象(船只)是小而稀疏的,具有挑战性的传统计算机视觉方法。我们提出了用于训练ML模型的最大标记数据集,以检测和表征SAR的血管。 XView3-SAR由Sentinel-1任务中的近1,000张分析SAR图像组成,平均每个29,400 x-24,400像素。使用自动化和手动分析的组合对图像进行注释。每个SAR图像都伴随着共置的测深和风状射手。我们概述了XView3计算机视觉挑战的结果,这是一项国际竞争,使用XView3-SAR进行大规模的船舶检测和表征。我们发布数据(https://iuu.xview.us/)和代码(https://github.com/diux-xview),以支持该重要应用程序的ML方法的持续开发和评估。
translated by 谷歌翻译
建筑环境中许多物体的形状由他们与人体的关系决定:一个人将如何与这个对象进行互动? 3D形状的现有数据驱动的生成模型产生合理的物体,但不会理由对人体的那些物体的关系。在本文中,我们学习了3D形状的身体感知生成模型。具体而言,我们培养椅子的生成型号,一种无处不在的形状类别,可以在给定的身体形状或坐姿姿势调节。身体形状调节的型号生产椅子,为具有给定体形的人舒适;姿势调节模型生产适应坐姿的椅子。要训​​练这些模型,我们定义了“坐姿匹配”度量标准和小说“坐姿舒适”度量。计算这些指标需要昂贵的优化将身体置于椅子上,这太慢被用作用于训练生成模型的损耗功能。因此,我们训练神经网络以有效地近似这些度量。我们使用我们的方法培训三个身体感知生成形状模型:基于结构的零件的发电机,点云发生器和隐式表面发生器。在所有情况下,我们的方法都生产适应其输出椅形状以输入人体规格的型号。
translated by 谷歌翻译